SoSe2022

Folienübersicht

Modulübersicht

Data Science 2 -Einführung in Statistik und Experimentelles Design

Kurstruktur

  • Vorlesung (45min)
  • Übungen (45min)
    • Übungsmaterial (Daten, Aufgabenskript, Lösungsskripte) auf Moodle
    • Bearbeitung auf unserem RStudio Server, im Projektordner ‘DS_WiSe20_21’
      • Ich habe im Projekt ‘DS1_WiSe21-22’ einen neuen Ordner ‘DS1’ erstellt.
      • Hier bitte im Unterordner ‘Studenten’ wieder einen neuen Ordner mit Eurem Namen erstellen!

Themenübersicht

VL Thema
1 Einführung in das exp. Design & die mathematische Statistik
2 Wahrscheinlichkeitstheorie
3 Wahrscheinlichkeitsverteilungen
4 Schätzverfahren
5 Hypothesentests
6/7 Klassische Tests
8 Einfache Varianzanalyse (ANOVA)
9 2-faktorielle Varianzanalyse (ANOVA)
10 Korrelation
11 Regression
12 Grundlagen des exp. Designs
13 Poweranalyse und Bestimmung des Stichprobenumfangs

Was hat die Statistik mit dem experimentellen Design zu tun?

Was hat die Statistik mit dem experimentellen Design zu tun?

Hauptphasen der Durchführung wissenschaftlicher Studien

Durchführung wissenschaftlicher Studien

Phase 1

Durchführung wissenschaftlicher Studien

Phase 2

Durchführung wissenschaftlicher Studien

Phase 3

Durchführung wissenschaftlicher Studien

Phase 6

Durchführung wissenschaftlicher Studien

Ständiger Wechsel zwischen den verschiedenen Phasen

Im Idealfall gilt,…

  • die Studie bzw. das Experiment ist leicht durchführbar.
  • bei festem Zeit-, Ressourcen- und Stichprobenaufwand wird ein Maximum an Informationen gewonnen.
  • die Ergebnisse sind auf eine Vielzahl von Personen, Bedingungen und Situationen anwendbar.
  • die Daten sind einfach zu analysieren und zu interpretieren.
  • die Schätzungen sind präzise.
  • die Schätzungen sind vor möglichen einmaligen Ereignissen geschützt, die die Ergebnisse beeinträchtigen könnten.
  • Effekte können eindeutig und ohne Verzerrung geschätzt werden.

→ Dies kann nur durch eine sorgfältige Planung vorweg erreicht werden, nicht NACHDEM die Daten erhoben wurden.

‘Learning’ vs. ‘Confirming’ Experiments

1

Lernende (explorative) Experimente

  • Hat das Medikament toxische Nebenwirkungen (in welcher Dosis, über welchen Zeitraum, in welchem Gewebe)?
  • Das Ziel ist etwas neues zu lernen.
  • Hypothese ist allgemeiner und ein statistischer Test ist weniger wichtig
  • Typisches Beispiel in der Biologie: ‘High-throughput screening’ in den Omics Wissenschaften.

‘Learning’ vs. ‘Confirming’ Experiments

2

Lernende (explorative) Experimente

  • Hat das Medikament toxische Nebenwirkungen (in welcher Dosis, über welchen Zeitraum, in welchem Gewebe)?
  • Das Ziel ist etwas neues zu lernen.
  • Hypothese ist allgemeiner und ein statistischer Test ist weniger wichtig.
  • Typisches Beispiel in der Biologie: ‘High-throughput screening’ in den Omics Wissenschaften.

Bestätigende Experimente

  • Erhöht sich die Kreatinkonzentration im Blut, wenn 5 mg/kg des Arzneimittels einmal täglich über 5 Tage verabreicht werden?
  • Basieren oft auf lernenden Experimenten.
  • Spzeifische Hypothesen werden getestet, bei denen häufig die Effektstärke wichtig ist.

Messende (natürliche) vs. manipulative Experimente

1

Messende (natürliche, korrelative) Experimente

  • Verwendung von bereits bestehenden oder natürlich vorkommenden Behandlungsgruppen.
  • Test von Hypothesen über Muster, bestehende Trends oder Beziehungen in der Natur.
  • Wenig Kontrolle.
  • Dazu gehören auch: Monitorings, Surveys

Messende (natürliche) vs. manipulative Experimente

2

Manipulative Experimente

  • Kontrollierte Manipulation schließt einige alternative Erklärungen (Ursachen) aus.
  • Mehrere mögliche Ursachen und ihre Wechselwirkungen können untersucht werden → Manipulation von zwei oder mehr Faktoren
  • Probleme mit manipulativen Experimenten:
    • In der Regel kleine räumliche und zeitliche Skalen (Relevanz?).
    • Kontrollen für Artefakte nicht immer möglich.
  • Kann im Labor oder im Feld durchgeführt werden.

Messende (natürliche) vs. manipulative Experimente

Manipulativ

Unter Laborbedingungen


Eines von NOAAs fischereiwissenschaftlichen Laboren zur Untersuchung der Effekte der Ozeanversauerung auf marine Organismen.
Bildquelle: NOAA

Draussen, in Mesokosmen


MEDIMEER (MEDIterranean platform for Marine Ecosystem Experimental Research) Experiment im Frühjahr 2018 in Sète, Frankreich.
Bildquelle: Aquacosm

Mathematische Statistik

Einführung

Warum brauchen wir Statistik?

  • Erleichtert die Interpretation von Daten. ACHTUNG: Statistik stellt keine Fakten dar, sie beschreibt Fakten!!
  • Ökologische Systeme sind stochastisch, nicht deterministisch.
    • ‘Blaues Lackmuspapier verfärbt sich in Säure IMMER rot’ → statistische Analyse hier unnötig.
    • ‘Aspirin hilft nicht immer gegen Kopfschmerzen’ → Statistik hier nötig um die Wahrscheinlichkeit, dass ein Ereignis zufällig erfolgt, einschätzen zu können.
  • In jedem Vergleich wird es Unterschiede geben. Die Herausforderung liegt in der Unterscheidung zwischen realen Effekten und zufälliger Variabilität

Einführung

Statistik als Teil der Stochastik

Die Statistik ist ein Teilgebiet der reinen Mathematik und betrachtet das Sammeln, die Analyse, die Präsentation und Interpretation von Daten. Sie stellt somit die theoretische Grundlage aller empirischen Forschung dar.

Einführung

Teilgebiet 1

Deskriptive Statistik

  • = beschreibende, empirische Statistik
  • Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst.
  • Hauptaufgabe der Statistikämter, Alltagsgebrauch
  • 2 Methoden:
    • Grafisch (Histogramm, Säulendiagramm) → Aussage über die Verteilung der Werte
    • Numerisch (Mittelwert, Varianz) → Aussage über Zentriertheit und Streuung

Einführung

Teilgebiet 2

Mathematische Statistik

  • = induktive, schließende Statistik, Inferenzstatistik
  • Eigenschaften einer Grundgesamtheit werden aus Daten einer Stichprobe abgeleitet.
  • Grundlage der Schätz-und Testverfahren ist die Wahrscheinlichkeitstheorie → Inferenzen sind nie sicher und werden als Wahrscheinlichkeiten ausgedrückt
  • Schätzverfahren (estimation): Berechnung von Stichprobenstatistik und Wertebereich indem Populationsparameter mit bestimmter Wahrscheinlichkeit vermutet wird (Konfidenzintervall)
  • Testverfahren (hypothesis-testing): setzt eine zu testende Hypothese voraus
  • schließt im weiteren auch Prognosen (forecasts/predictions) ein

Einführung

Teilgebiet 3

Explorative Statistik

  • = Hypothesen-generierende, analytische Statistik, explorative Datenanalyse (EDA)
  • Große Anwendung im Data Mining.
  • Von John W. Tukey in den 1970ern eingeführt.
  • Methodisch eine Zwischenform der Teilbereiche 1 und 2.
  • Verwendung von Daten um Hypothesen zu entwickeln, die dann mithilfe der mathematischen Statistik getestet werden können.

Unterschiedliche Fragestellung

  • Deskriptive Statistik: Wie kann man eine Verteilung eines Merkmals beschreiben?
  • Explorative Statistik: Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?

2 Aspekte der statistischen Analyse

Algorithmen vs. Inferenz

  • Bei Algorithmen geht es darum, was der oder die Statistiker/in tut, während es bei der Inferenz darum geht, warum er oder sie es tut und wie gut der Algorithmus ist.
  • Beispiel: Arithmetische Mittelwertsbildung ist der Algorithmus, der Standardfehler des Mittelwerts liefert einen Rückschluss auf die Genauigkeit des Algorithmus (= Inferenz).
  • Der Algorithmus kommt immer zuerst und die Inferenz folgt auf einer zweiten Ebene der statistischen Betrachtung.
  • Durch die computergestützte Zunahme an riesigen Datensammlungen hat es eine Revolution der computergestützten, statistischen Methoden (Algorithmen) gegeben, während sich die Inferenz, also die Theorie nach der zwischen konkurrierenden Methoden gewählt wird, etwas langsamer entwickelte.

Statistik in Zeiten der Computer-Ära

Ein Methodenüberblick

Klassische Inferenzstatistik

  • Frequentistische Inferenz
  • Bayes’sche Inferenz
  • Fisher’sche Inferenz und die Maximum-Likelihood-Schätzung
  • Parametrische Modelle (Regression, ANOVA, ANCOVA)

Frühe Methoden des Computerzeitalters

  • Empirische Bayes Methode
  • James-Stein-Schätzung und Ridge-Regression
  • Generalisierte Lineare und Additive Modelle (GLM, GAM)
  • Entscheidungsbäume CART (Classification und Regression Trees)
  • Überlebensanalyse (survival analysis) und Erwartungs-Maximierungs-Algorithmus
  • Jackknife und Bootstrap Methoden
  • Markov Chain Monte Carlo
  • ARIMA Modelle

Methoden des 21. Jahrhunderts

  • Großskalige Hypothesentests und Falscherkennungsraten
  • Sparse Modeling und Lasso Regression
  • Random Forests und Boosting
  • Neuronale Netzwerke und Deep Learning
  • Support-Vector Machines und Kernel Methoden
  • Empirische Bayes Schätzstrategien

Interview mit Travor Hastie und Bradley Effron

Zwei statistische Haupttheorien

  • In den Naturwissenschaften herrscht ein wahrer Glaubenskrieg, ob die (bekannteren) frequentistische (häufigkeitsbasierte) oder (zumindest in Deutschland) nicht so populäre Bayes’sche Statistik als Grundlage zur Auswertung von Experimenten dienen soll, dabei sind Resultate oftmals sehr ähnlich.
  • Beide Ansätze sind in sich geschlossene Theorien und daher als solche weder “richtig” noch “falsch”. Wohl aber stellt sich diese Frage in Bezug auf deren Anwendung.
  • Der frequentistische Ansatz beruht allein auf Beobachtungen, d.h. er ist experimental oder induktiv
  • Die Bayes’sche Methode kombiniert erhobene Daten mit Kenntnissen, die aus vorherigen Studien stammen oder Expertenmeinungen widerspiegeln, um zu einem Ergebnis zu gelangen.

Frequentistische vs. Bayes’sche Statistik

Vergleich

Merkmal Frequentistische Statistik Bayes’sche Statistik
Definition Wahrscheinlichkeits- begriffs Relative Häufigkeit, mit der ein Ereignis in einer großen Anzahl gleicher, wiederholter, voneinander unabhängiger Zufallsexperimenten auftritt Grad persönlicher Überzeugung (englisch degree of belief), welcher auf einmalige Ereignisse oder zur Bewertung von Hypothesen herangezogen werden kann
Parameter fester Fixpunkt (z. B. Effektgröße) Zufällig, besitzt eine Wahrscheinlichkeitsverteilung
Vorwissen (prior knowledge) irrelevant im Modell berücksichtigt

>250 Jahre Statistik

Bevölkerungsstatistik (~19 Jhd.)

  • Volkszählungen älteste bekannte Anwendungen der Statistik (erste Volkszählung 1801).
  • Bürokratisches Sammeln großer Datenmengen über Bevölkerung → viktorianische Statistiker System entwickelt zur Erfassung von Daten zur Volksgesundheit → führte zu politischen Reformen und Entstehung ‘Public Health Act’;
  • Bevölkerungsstatistiker Auffassung, dass statistische Variation Fehlerquelle sei, die man abschaffen müsste; Fokus hier auf Durchschnittswerte (Idee der perfekten Mitte, Lehre des Determinismus).
  • Darwins Theorie der biologischen Variation schuf Rahmen für Konzeption neuer statistischer Methoden; Fokus verlagert sich auf die Varianz.

>250 Jahre Statistik

Mathematische Statistik

  • Späte 19 Jhd., Anfang 20. Jhd.
  • Mathematische Statistik entstand aus der mathematischen Wahrscheinlichkeitstheorie durch Werke von Bernoulli, Laplace, Gauß und DeMoivre.
  • Teilaspekte von Kontinentaleuropa ausgehend, aber meiste von Briten entwickelt. Z.B.
    • Francis Galton (Vetter von Charles Darwin): Begründer der Biometrie, entwickelte Grundlagen der Regression und Korrelation
    • Karl Pearson: arbeitete \(\chi^2\)-Verteilung aus, entwickelte parametrischen Korrelationskoeffizienten
    • Ronald A Fisher: entwickelte Grundlagen der Varianzanalyse, Planung von Experimenten, Zufallsanordnungen

Anstoß zur Wahrscheinlichkeitsrechnung

2 Historische Aufgaben aus der Kombinatorik

Die Aufgabe von Galileo Galilei

Um 1615 sollen italienische Spieler (in einigen Quellen heißt es auch der Fürst von Toskana) Galilei folgende Frage gestellt haben, welche eine viel diskutierte, Jahrhunderte alte Aufgabe darstellte:

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Die damaligen Theoretiker behaupteten, dass beide Summen gleich wahrscheinlich seien. Aus ihrer Erfahrung wussten allerdings die Glücksspieler, dass die 10 häufiger als die 9 autritt.

Das De-Méré-Paradoxon

Als eigentliche Geburtsstunde der mathematischen Wahrscheinlichkeitsrechnung gilt das Jahr 1654. Chevalier de Meré, ein Philosoph und Literat am Hofe Ludwigs des XIV, wandte sich mit folgendem Problemen an den bekannten Mathematiker Blaise Pascal:

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen?

Auch dieses Probleme war damals schon viele Jahrhunderte alt. Allerdings waren die früheren Lösungen falsch.

Wichtiges zum Schluss

Grundsätzlich gilt in der Statistik

  • Statistische Analysen können NICHT falsch gesammelte, unvollständige oder unzuverlässige Daten kompensieren!
  • Statistische Auswertungen sollten nicht einfach kochbuchmäßig ausgeführt werden (zunehmende Gefahr mit aktuellen Computerprogrammen und zugänglichen Programmierskripten)
  • Hintergründe und Voraussetzungen der Methoden sollten bekannt sein → dabei sind die mathematischen Formeln weniger wichtig als der zugrundeliegende philosophische Ansatz.

Übungsaufgabe

Aufgabe 1: Die Aufgabe von Galileo Galilei

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Summen haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Summe 9 oder 10 häufiger vorkommt.
    • Nimm 3 unterschiedlich aussehende Würfel und werfe sie zusammen. Notiere Dir die Summe der drei Augenzahlen.
    • Wiederhole den Wurf, sprich die ‘Messung’, mindestens 20-mal.
    • Berechne aus den mind. 20 Würfen (Messungen) die relativen Häufigkeiten der Summe 9 und 10. Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Aufgabe 2: Die Aufgaben des Chevalier de Meré

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln (Variante A) ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen (Variante B)?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Varianten haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Variante A oder B häufiger vorkommt.
    • Führe Variante A und B getrennt durch und notiere Dir die Gesamtaugenzahl bei jedem Wurf (= Messung).
    • Wiederhole jede Messung mindestens 20-mal.
    • Berechne aus den mind. 20 Messungen die relativen Häufigkeiten der ‘6’ (Variante A) und der ‘Doppelsechs’ (Variante B). Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Abschlussquiz

Fragen?